Najlepsze kodowania

Dla każdego kodowania przprowadzono 5-krotną walidację krzyżową. Walidację potwórzono 4 razy (4 z powodu ograniczeń obliczeniowych). Obliczenia zostały przeprowadzone uwzględniając dwie strategie uczenia: tylko hexamery w zbiorze uczącycm (etykiety hexamers na rysunkach i w tabelach) oraz sekwencje o dowolnej długości w zbiorze uczącym (etykieta all-mers na rysunkach i w tabelach).

Heksamery

Na rysunku powyżej przedstawiono średnie AUC dla klasyfikatorów uczonych dla heksamerów (czerwone kropki) oraz minimalną i maksymalną wartość AUC. Wybrano 10% najlepszych kodowań.

Kodowanie 32.
Group
1 A, G
2 R, K
3 N, D, Q, E, H, P, S, T
4 C, I, L, M, F, V
5 W, Y
Kodowanie 41.
Group
1 A, C, G
2 R, K
3 N, Q, E, H, P, T, Y
4 D, S
5 I, L, M, F, W, V
Kodowanie 44.
Group
1 A, C, G, S
2 R, K
3 N, Q, H, P, T
4 D, E
5 I, L, M, F, W, Y, V
Kodowanie 53.
Group
1 A, C, G
2 R, K
3 N, Q, H, P, S, T
4 D, E
5 I, L, M, F, W, Y, V
Kodowanie 77.
Group
1 A, C
2 R, K
3 N, Q, E, H, P, T
4 D, G, S
5 I, L, M, F, W, Y, V
Kodowanie 79.
Group
1 A, G
2 R, K
3 N, D, Q, E, H, P, S, T
4 C, I, L, M, F, V
5 W, Y
Kodowanie 86.
Group
1 A, C, G
2 R, K
3 N, Q, E, H, P, T, Y
4 D, S
5 I, L, M, F, W, V
Kodowanie 89.
Group
1 A, C, G, S
2 R, K
3 N, Q, H, P, T
4 D, E
5 I, L, M, F, W, Y, V
Kodowanie 90.
Group
1 A, G, P, S, T
2 R, D, E, K
3 N, Q
4 C, H, I, L, M, V
5 F, W, Y
Kodowanie 91.
Group
1 A, C, G
2 R, D, E, K
3 N, Q, H, P, S, T
4 I, L, M, V
5 F, W, Y
Kodowanie 92.
Group
1 A, C, G, P, S, T
2 R, D, E, K
3 N, Q, H
4 I, L, M, V
5 F, W, Y

Wszystkie najlepsze kodowania zawierają 5 grup.

Sekwencje o dowolnej długości

Na rysunku powyżej przedstawiono średnie AUC dla klasyfikatorów uczonych dla heksamerów (czerwone kropki) oraz minimalną i maksymalną wartość AUC. Wybrano 10% najlepszych kodowań.

Kodowanie 32.
Group
1 A, N, D, C, Q, E, G, P, S, T
2 R, H, K
3 I, L, M, F, W, Y, V
Kodowanie 41.
Group
1 A, N, D, C, Q, E, G, H, S, T
2 R, K
3 I, F, W, Y
4 L, M, P, V
Kodowanie 44.
Group
1 A, C, G, H, P
2 R, K
3 N, D, Q, E, S, T
4 I, L, M, F, W, Y, V
Kodowanie 53.
Group
1 A, N, D, C, Q, E, G, H, S, T
2 R, K
3 I, F, W, Y
4 L, M, P, V
Kodowanie 77.
Group
1 A, C, G
2 R, K
3 N, D, Q, E, H, S, T
4 I, F, W, Y
5 L, M, P, V
Kodowanie 79.
Group
1 A, G
2 R, K
3 N, D, Q, E, H, P, S, T
4 C, I, L, M, F, V
5 W, Y
Kodowanie 86.
Group
1 A, C, G
2 R, K
3 N, Q, H, P, S, T
4 D, E
5 I, L, M, F, W, Y, V
Kodowanie 89.
Group
1 A, C, G, S
2 R, K
3 N, D, Q, E, H, T
4 I, F, W, Y
5 L, M, P, V
Kodowanie 90.
Group
1 A, C
2 R, K
3 N, Q, E, H, P, T
4 D, G, S
5 I, L, M, F, W, Y, V
Kodowanie 91.
Group
1 A, G
2 R, K
3 N, D, Q, E, H, P, S, T
4 C, I, L, M, F, V
5 W, Y
Kodowanie 92.
Group
1 A, G, P
2 R, K
3 N, D, Q, E, S, T
4 C, H
5 I, L, M, F, W, Y, V

Pond połowa najlepszych kodowań zawiera 5 grup, pozostałe mniej.

Porównanie najlepszych kodowań

Rysunek powyżej przedstawia różnice w grupowaniu aminokwasów dla najlepszych grupowań. Wysokość słupka odpowiada częstotliwości z jaką aminokwas \(a_1\) był zaliczany do tej samej grupy, co aminokwas \(a_2\). Grupa “background” oznacza wszystkie możliwe kodowania.

Ten sam wykres, co powyżej. Z uwagi na to, że arginina i lizyna występują razem bardzo często utrudniając obserwację zmienności dla innych par aminokwasów, wszystkie wykresy przycięto do wartości częstości 0.40.